现在,人工智能(AI)可以自动解释医学图像以供临床使用。但是,AI在介入图像中的潜在用途(相对于参与分类或诊断的图像),例如在手术期间的指导,在很大程度上尚未开发。这是因为目前,使用现场分析对现场手术收集的数据进行了事后分析,这是因为手术AI系统具有基本和实际限制,包括道德考虑,费用,可扩展性,数据完整性以及缺乏地面真相。在这里,我们证明从人类模型中创建逼真的模拟图像是可行的替代方法,并与大规模的原位数据收集进行了补充。我们表明,对现实合成数据的训练AI图像分析模型,结合当代域的概括或适应技术,导致在实际数据上的模型与在精确匹配的真实数据训练集中训练的模型相当地执行的模型。由于从基于人类的模型尺度的合成生成培训数据,因此我们发现我们称为X射线图像分析的模型传输范式(我们称为Syntheex)甚至可以超越实际数据训练的模型,因为训练的有效性较大的数据集。我们证明了合成在三个临床任务上的潜力:髋关节图像分析,手术机器人工具检测和COVID-19肺病变分割。 Synthex提供了一个机会,可以极大地加速基于X射线药物的智能系统的概念,设计和评估。此外,模拟图像环境还提供了测试新颖仪器,设计互补手术方法的机会,并设想了改善结果,节省时间或减轻人为错误的新技术,从实时人类数据收集的道德和实际考虑方面摆脱了人为错误。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
二维超声心动图中的标准视图已经建立了良好,但是获得的图像的质量高度依赖于操作员的技能,并进行了主观评估。这项研究旨在通过定义一组新的特定领域质量指标来为超声心动图图像质量提供客观评估管道。因此,可以自动化图像质量评估以增强临床测量,解释和实时优化。我们开发了深层神经网络,用于对超声心动图框架的自动评估,这些评估是从11,262名成年患者中随机采样的。私有超声心动图数据集由33,784帧组成,以前在2010年至2020年之间获得。深度学习方法被用来提取时空特征,并根据平均绝对误差评估了图像质量指标。我们的质量指标涵盖了解剖学和病理元素,以分别提供解剖学可见性,清晰度,深度增益和预先理解性的多元评估评分。
translated by 谷歌翻译
超声心动图图像质量评估不是经胸检查中的微不足道问题。随着对心脏结构的体内检查在心脏诊断方面的突出性,已经确认,准确诊断左心室功能取决于回声图像的质量。到目前为止,回声图像的视觉评估是高度主观的,需要在临床病理下进行特定的定义。尽管质量较差的图像损害了量化和诊断,但超声心动图图像质量标准的固有变化表明,在临床试验下,在临床试验下,尤其是在经验不足的心脏病学家下,在不同观察者之间面临的复杂性,并提供了明显的证据。在这项研究中,我们的目的是分析和定义专家主要讨论的特定质量属性,并提出一个完全训练的卷积神经网络模型,以客观地评估此类质量功能。
translated by 谷歌翻译
推断线性关系是许多实证研究的核心。线性依赖性的度量应正确评估关系的强度,并符合对人群的有意义。 Pearson的相关系数(PCC)是双变量关系的\ textit {De-facto}量度,这两个方面都缺乏。估计的强度$ r $可能是由于样本量有限和数据非正态而可能错误的。在统计显着性测试的背景下,将$ p $值作为后验概率的错误解释导致I型错误 - 这是一个具有显着性测试的一般问题,扩展到PCC。同时测试多个假设时,此类错误会加剧。为了解决这些问题,我们提出了一种基于机器学习的预测数据校准方法,从本质上讲,该方法在预期的线性关系上进行了研究。使用校准数据计算PCC会产生校准的$ P $值,可以将其解释为后验概率以及校准的$ r $估计值,这是其他方法未提供的所需结果。此外,随之而来的对每个测试的独立解释可能会消除对多次测试校正的需求。我们提供了使用多个模拟和对现实世界数据的应用,有利于提出的方法的经验证据。
translated by 谷歌翻译
减少甲烷排放对于缓解全球变暖至关重要。为了将甲烷排放归因于其来源,有必要综合的甲烷源基础设施数据集。深入学习远程感知的图像的最新进展有可能识别甲烷源的位置和特征,但是缺乏公开可用的数据,可以使机器学习研究人员和从业人员能够构建自动映射方法。为了帮助填补这一空白,我们在美国构建了一个称为Meter-ML的多传感器数据集,该数据集包含86,625个地理参考的NAIP,Sentinel-1和Sentinel-2图像,并在美国标记为有甲烷源设施,包括甲烷源设施,包括集中动物喂养操作,,,,,,,包括浓缩动物喂养操作,煤矿,垃圾填埋场,天然气加工厂,炼油厂和石油末端以及废水处理厂。我们尝试各种模型,以利用不同的空间分辨率,空间足迹,图像产品和光谱带。我们发现,我们的最佳模型在确定浓缩动物喂养操作的精确召回曲线下达到了一个面积,在专家标签的测试集上,用于识别浓缩动物饲养操作,用于油炼油厂和石油末端0.821,这表明有可能进行大规模映射。我们在https://stanfordmlgroup.github.io/projects/meter-ml/上免费提供仪表-ML,以支持自动化甲烷源映射的未来工作。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
贝叶斯优化是一种顺序设计形式:使用适当灵活的非线性回归模型理想化输入 - 输出关系;符合初始实验活动的数据;设计并优化用于选择拟合模型(例如,通过预测方程)下的下一个实验条件的标准,以实现兴趣的结果(例如最小值);在这些条件下获取输出并更新拟合后重复。在许多情况下,这种在新数据采集标准上的“内部优化”是麻烦的,因为它是非凸/高度多模态,可能是非可分子的,或者可能可能挫败数值优化器,尤其是当推理需要蒙特卡罗时。在这种情况下,在随机候选中,用离散的一个离散的一个不常见的情况并不罕见。在这里,我们提出了基于现有输入设计的Delaunay三角测量的候选者。除了详细构建这些“Tricands”之外,基于传统凸船库围绕的简单包装,我们基于所涉及的几何标准的性质促进了几个优势。然后,我们证明了与数值优化的采集和基于随机候选的替代品相比,特异性如何导致Tricands如何导致更好的贝叶斯优化性能。
translated by 谷歌翻译
当一个人说话时,嘴唇是一个主要的动态面部单元。检测唇部事件有利于言语分析和对听力受损的支持。本文提出了一种3D唇事件检测管道,其自动确定来自3D讲唇序的唇部事件。我们使用3D唇部地标定义运动发散措施来量化3D讲唇唇的帧间动态。然后,我们将帧间运动检测施放在多时间分辨率框架中,该框架允许检测适用于不同的讲话速度。S3DFM数据集的实验基于所提出的运动分歧,研究了整个3D唇动力学。所提出的3D管道能够通过100个序列检测打开和关闭唇部事件,实现最先进的性能。
translated by 谷歌翻译
学习以上对象的多对象场景表示是对机器智能的有希望的方法,促进了从视觉感觉数据的高级推理和控制。然而,对无监督以上的对象的场景表示的电流方法无法从场景的多个观察中聚合信息。结果,这些“单视图”方法仅基于单个2D观察(视图)形成其3D场景的表示。当然,这导致了几种不准确性,这些方法将受害者下降到单视空间歧义。为了解决此问题,我们提出了多视图和多目标网络(MULMON) - 一种通过利用多个视图学习准确,对象形式的对象场景的表示方法。为了索取跨视图的多对象多视图方案 - 维护对象对象的主要技术难度 - 云母迭代更新多个视图上的场景的潜在对象表示。为了确保这些迭代更新确实汇总空间信息以形成完整的3D场景理解,因此被要求在训练期间从新的观点来预测场景的外观。通过实验,我们表明云母更好地解决了空间歧义,而不是单视图 - 学习更准确和解散的对象表示 - 并且还实现了预测新颖观点的对象分段的新功能。
translated by 谷歌翻译